Label noise is ubiquitous in various machine learning scenarios such as self-labeling with model predictions and erroneous data annotation. Many existing approaches are based on heuristics such as sample losses, which might not be flexible enough to achieve optimal solutions. Meta learning based methods address this issue by learning a data selection function, but can be hard to optimize. In light of these pros and cons, we propose Selection-Enhanced Noisy label Training (SENT) that does not rely on meta learning while having the flexibility of being data-driven. SENT transfers the noise distribution to a clean set and trains a model to distinguish noisy labels from clean ones using model-based features. Empirically, on a wide range of tasks including text classification and speech recognition, SENT improves performance over strong baselines under the settings of self-training and label corruption.
translated by 谷歌翻译
In most cases, bilingual TTS needs to handle three types of input scripts: first language only, second language only, and second language embedded in the first language. In the latter two situations, the pronunciation and intonation of the second language are usually quite different due to the influence of the first language. Therefore, it is a big challenge to accurately model the pronunciation and intonation of the second language in different contexts without mutual interference. This paper builds a Mandarin-English TTS system to acquire more standard spoken English speech from a monolingual Chinese speaker. We introduce phonology embedding to capture the English differences between different phonology. Embedding mask is applied to language embedding for distinguishing information between different languages and to phonology embedding for focusing on English expression. We specially design an embedding strength modulator to capture the dynamic strength of language and phonology. Experiments show that our approach can produce significantly more natural and standard spoken English speech of the monolingual Chinese speaker. From analysis, we find that suitable phonology control contributes to better performance in different scenarios.
translated by 谷歌翻译
自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签,然后自我教学。为了获得有效的监督,主动尝试通常会采用动量老师进行伪标签的预测,但要观察确认偏见问题,在这种情况下,错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是,现行的自我训练框架充当以前的知识指导当前状态,因为老师仅与过去的学生更新。为了减轻这个问题,我们提出了一种新颖的自我训练策略,该策略使模型可以从未来学习。具体而言,在每个培训步骤中,我们都会首先优化学生(即,在不将其应用于模型权重的情况下缓存梯度),然后用虚拟未来的学生更新老师,最后要求老师为伪标记生产伪标签目前的学生作为指导。这样,我们设法提高了伪标签的质量,从而提高了性能。我们还通过深入(FST-D)和广泛(FST-W)窥视未来,开发了我们未来自我训练(FST)框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例,我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。
translated by 谷歌翻译
除了在经典图像压缩编解码器上实现较高的压缩效率外,还可以通过其他侧面信息(例如,从同一场景的不同角度)改进深层图像压缩。为了更好地利用分布式压缩方案下的侧面信息,现有方法(Ayzik和Avidan 2020)仅在图像域上实现匹配的补丁,以解决由查看点差异引起的视差问题。但是,在图像域上匹配的补丁匹配对由不同的视角引起的比例,形状和照明的差异并不强大,也无法充分利用侧面信息图像的丰富纹理信息。为了解决此问题,我们建议在分布式图像压缩模型的解码器上充分利用多尺度特征域贴片匹配(MSFDPM)。具体而言,MSFDPM由侧面信息特征提取器,多尺度特征域补丁匹配模块和多尺度特征融合网络组成。此外,我们重复使用从浅层层进行斑点相关性,以加速深层的贴片匹配。最后,我们认为,与图像域(Ayzik和Avidan 2020)的贴片匹配方法相比,在多尺度特征域中的匹配进一步提高了压缩率约20%。
translated by 谷歌翻译
我们在时间图上提出了一种新的邻居采样方法。在时间图中,预测不同节点的时变特性可能需要各种时间尺度的接收邻域。在这项工作中,我们提出了TNS(时间感知邻居采样)方法:TNS从时间信息学习,以便随时为每个节点提供自适应接收邻域。学习如何样本邻居是非琐碎的,因为邻居指数处于时间顺序是离散的且不可分辨。为了解决这一挑战,我们通过插入邻居的消息,我们将邻居指数从离散值转换为连续的索引。 TNS可以灵活地纳入流行的时间图网络,以提高其有效性,而不会增加时间复杂性。 TNS可以以端到端的方式训练。它不需要额外的监督,并自动和隐含地引导以对预测最有利的邻居进行样本。多个标准数据集的经验结果表明,TNS对边缘预测和节点分类产生了显着的增益。
translated by 谷歌翻译
生成的对抗性网络(GANS)的成功基本上基于发电机(G)和鉴别者(D)之间的对抗训练。预计它们将达到一定的平衡,其中D不能将生成的图像与真实的图像区分开来。但是,在实践中,难以在GaN训练中实现如此平衡,而是几乎总是超过G.我们将这种现象归因于D和G之间的信息不对称。具体而言,我们观察到确定时的视觉注意力图像是真实还是假的,但G没有明确的线索,在哪个区域专注于特定合成。为了缓解D质量在GAN中竞争的问题,我们的目的是提高G的空间意识。随机采样的多级热手表被编码为G作为感应偏压的中间层。因此,G可以有目的地改善某些图像区域的合成。我们进一步建议将G的空间意识与D.通过这种方式对准G.通过这种方式,我们有效地减少了D和G之间的信息差距。广泛的结果表明,我们的方法将两位玩家游戏推动到均衡的GANS中的两个玩家游戏,导致综合性能更好。作为副产品,引入的空间意识有助于在输出合成上进行交互式编辑。演示视频和更多结果在https://genforce.github.io/eqgan/处。
translated by 谷歌翻译
表示标签分布作为一个热量矢量是培训节点分类模型中的常见做法。然而,单热表示可能无法充分反映不同类别中节点的语义特征,因为某些节点可以在其他类中的邻居语义上靠近其邻居。由于鼓励在对每个节点进行分类时,鼓励模型分配完全概率,因此会导致过度自信。虽然具有标签平滑的培训模型可以在某种程度上缓解此问题,但它仍然无法捕获图形结构隐含的节点的语义特征。在这项工作中,我们提出了一种新颖的SAL(\ Textit {Security-Aware标签平滑})方法作为流行节点分类模型的增强组件。 SAL利用图形结构来捕获连接节点之间的语义相关性并生成结构感知标签分配以替换原始的单热标签向量,从而改善节点分类性能而不推广成本。七节点分类基准数据集的广泛实验揭示了我们对改进转膜和归纳节点分类的含量的有效性。经验结果表明,SALS优于标签平滑方法,增强节点分类模型以优于基线方法。
translated by 谷歌翻译
我们呈现多视图姿势变压器(MVP),用于从多视图图像估计多人3D姿势。而不是从昂贵的体积表示或从多个检测到的2D重建的每人3D姿势估计从昂贵的体积表示或从多个检测到的2D姿势进行估计3D联合位置,而是MVP以清洁和有效的方式直接回归多人3D姿势,而不依赖于中间任务。具体而言,MVP表示作为学习查询嵌入的骨架关节,并让它们从输入图像中逐渐参加和原因,以直接回归实际的3D联合位置。为了提高这种简单管道的准确性,MVP呈现了一个分层方案,简明地代表了多人骨架关节的查询嵌入,并引入了输入相关的查询适应方法。此外,MVP设计了一种新颖的几何引导注意力机制,称为投影注意力,更精确地熔化每个关节的跨视网膜信息。 MVP还介绍了RAYCONV操作,以将视图依赖的相机几何整合到特征表示中,以增加投射注意。我们通过实验展示我们的MVP模型在几个基准上占据了最先进的方法,同时更有效。值得注意的是,它在挑战的Panoptic DataSet上实现了92.3%的AP25,提高了先前的最佳方法[36],提高了9.8%。 MVP是通用的,并且还可以扩展到恢复SMPL模型表示的人网格,因此可用于建模多人身体形状。代码和模型可在https://github.com/sail-sg/mvp上获得。
translated by 谷歌翻译
量子噪声是嘈杂中间级量子(NISQ)计算机中的关键挑战。以前的缓解噪声的工作主要集中在门级或脉冲级噪声自适应编译。然而,有限的研究工作通过使量子电路本身对噪声具有更高的优化级别。我们提出了Quoutumnas,是变分电路和量子位映射的噪声自适应共同搜索的全面框架。变形量子电路是构建QML和量子仿真的有希望的方法。然而,由于大型设计空间和参数训练成本,找到最佳变分电路及其最佳参数是具有挑战性的。我们建议通过引入新的超级速度来解耦电路搜索和参数培训。超电路由多层预定的参数化栅极构成,并通过迭代采样和更新其的参数子集(Subcircuit)训练。它提供了从头开始培训的子通差形性能的准确估计。然后我们执行Subcircuit的演进共同搜索和其量子位映射。使用从超级电路继承的参数和使用真实设备噪声模型进行估计,估计子电路性能。最后,我们执行迭代栅极修剪和FineTuning以去除冗余栅极。在10个量子计算上广泛评估了12个QML和VQE基准,Quoutumnas显着优于基线。对于QML,Quoutumnas是第一个展示超过95%的2级,85%的4级和真实QC的32%的10级分类准确性。与UCCSD相比,它还实现了H2,H2O,LIH,CH4,BEH2上的VQE任务的最低特征值。我们还开源Quantumengine(https://github.com/mit-han-lab/pytorch-quantum),用于快速训练参数化量子电路,以促进未来的研究。
translated by 谷歌翻译
探讨了语言建模流行的变形金刚,用于近期解决视觉任务,例如,用于图像分类的视觉变压器(VIT)。 VIT模型将每个图像分成具有固定长度的令牌序列,然后应用多个变压器层以模拟它们的全局关系以进行分类。然而,当从像想象中的中型数据集上从头开始训练时,VIT对CNNS达到较差的性能。我们发现它是因为:1)输入图像的简单标记未能模拟相邻像素之间的重要局部结构,例如边缘和线路,导致训练采样效率低。 2)冗余注意骨干骨干设计对固定计算预算和有限的训练样本有限的具有限制性。为了克服这些限制,我们提出了一种新的令牌到令牌视觉变压器(T2T-VIT),它包含1)层 - 明智的代币(T2T)转换,通过递归聚合相邻来逐步地结构于令牌到令牌。代币进入一个令牌(令牌到令牌),这样可以建模由周围令牌所代表的本地结构,并且可以减少令牌长度; 2)一种高效的骨干,具有深度狭窄的结构,用于在实证研究后CNN建筑设计的激励变压器结构。值得注意的是,T2T-VIT将Vanilla Vit的参数计数和Mac减少了一半,同时从想象中从头开始训练时,改善了超过3.0 \%。它还优于Endnets并通过直接培训Imagenet训练来实现与MobileNets相当的性能。例如,T2T-VTO与Reset50(21.5M参数)的可比大小(21.5M参数)可以在图像分辨率384 $ \ Times 384上实现83.3 \%TOP1精度。 (代码:https://github.com/yitu-opensource/t2t-vit)
translated by 谷歌翻译